년 1월 AI 및 로봇 연구 동향

년 1월 AI 및 로봇 연구 동향

1. 2025년의 시작, 물리적 AI 시대의 개막

2025년 1월은 인공지능과 로봇 공학 분야에서 단순한 점진적 발전을 넘어 새로운 패러다임의 전환을 예고하는 중요한 분기점으로 기록될 것이다. 이달의 기술적 담론은 미국 라스베이거스에서 개최된 세계 최대 가전·정보기술 전시회(CES 2025)를 통해 전면에 부상한 ’물리적 AI(Physical AI)’라는 개념에 의해 지배되었다.1 이는 AI가 디지털 공간의 정보 처리를 넘어, 물리적 세계를 인식하고, 추론하며, 상호작용하는 능력을 갖추게 되는 시대로의 전환을 의미한다. 과거의 AI가 이미지, 단어, 소리를 이해하는 ’인식 AI’에서 텍스트, 이미지, 소리를 창조하는 ’생성 AI’로 발전했다면, 이제는 인지, 추론, 계획, 행동의 능력을 갖추고 물리 세계와 직접 상호작용하는 단계로 진입하고 있음을 선언한 것이다.1

본 보고서는 2025년 1월을 ‘물리적 AI’ 생태계 구축의 원년으로 규정하고, 특히 NVIDIA가 제시한 기술적 비전과 하드웨어 로드맵을 중심으로 산업계의 동향을 심층 분석한다. 이와 동시에, 대규모 언어 모델(LLM) 기반 계획, 비디오 기반 로봇 학습, 시뮬레이션-현실 전환(Sim-to-Real) 등 학계의 핵심 연구 흐름이 이러한 산업계의 비전을 어떻게 뒷받침하고 상호작용하는지를 규명하여, 해당 월의 기술적 성과를 다각적으로 조망하고자 한다.

’물리적 AI’라는 개념의 등장은 단순한 마케팅 용어의 창조가 아니다. 이는 여러 기술적 흐름이 동시에 성숙하여 특정 비전의 실현을 가능하게 만든 전략적 수렴점(convergence point)을 나타낸다. 로봇 공학계는 오랫동안 현실 세계에서 발생하는 무수한 예외 상황, 즉 ‘롱테일(long tail)’ 문제를 해결하는 데 어려움을 겪어왔다.3 전통적인 수작업 프로그래밍 방식으로는 이러한 문제에 확장성 있게 대응할 수 없었다. 이러한 상황에서, 특히 비디오 생성 분야에서의 생성 AI 기술 발전은 방대한 양의 훈련 데이터를 합성하여 이 문제를 해결할 수 있는 잠재적 대안을 제시했다.4 그러나 물리적으로 타당한(physically plausible) 합성 데이터를 생성하는 것은 이전에는 달성하기 어려웠던 막대한 연산 능력과 정교한 월드 모델(world model)을 요구했다. 2025년 1월 NVIDIA의 발표는 바로 이 지점에서 중요한 의미를 가진다. Blackwell 아키텍처 기반의 차세대 GPU 5는 필요한 연산 능력을 제공하고, ‘코스모스(Cosmos)’ 플랫폼 1은 월드 모델과 데이터 파이프라인을 제공함으로써 수직적으로 통합된 솔루션을 제시했다. 따라서 ’물리적 AI’는 로봇 공학의 근본적인 병목 현상을 해결하기 위한 풀스택(full-stack) 솔루션에 대한 전략적 브랜딩이며, 하드웨어와 생성 AI 역량의 시의적절한 융합을 통해 비로소 가능해진 것이다.

2. CES 2025 기술 분석: NVIDIA의 물리적 AI 생태계 구축

2.1 NVIDIA 키노트: ‘물리적 AI’ 비전의 선포

NVIDIA의 창립자이자 CEO인 젠슨 황(Jensen Huang)은 CES 2025 기조연설에서 AI 발전의 다음 단계를 ’물리적 AI’로 명확히 정의했다. 그는 이것이 AI가 단순히 디지털 정보를 처리하는 것을 넘어, 물리적 세계를 인지(perceive), 추론(reason), 계획(plan), 그리고 행동(act)하는 능력을 갖추는 것이라고 설명했다.1 이 비전은 기존의 인식 AI(Perception AI)와 생성 AI(Generative AI)를 잇는 필연적인 진화 단계로 제시되었으며, AI 기술의 적용 범위가 가상 세계에서 현실 세계로 확장되는 중대한 전환을 의미한다.

이 비전은 단순한 로봇공학(robotics)의 개념을 확장한다. 전통적인 로봇공학이 기계 자체의 설계와 제어에 초점을 맞추었다면, 물리적 AI는 그 기계에 지능을 부여하여 실시간으로 주변 환경을 인식하고, 독립적인 의사결정을 내리며, 변화하는 상황에 적응하는 능력을 포함한다.3 이는 공장이나 창고에서 정해진 경로를 따라 반복적인 작업을 수행하는 로봇을 넘어, 예측 불가능하고 동적인 실제 환경에서 자율적으로 복잡한 임무를 수행하는 차세대 지능형 시스템을 목표로 한다.4 젠슨 황은 이러한 시스템의 예시로 에이전트 AI(agentic AI), 휴머노이드 로봇, 그리고 자율주행차를 언급하며, 이들이 물리적 AI 시대의 핵심 ’로봇’이 될 것이라고 예측했다.5

2.2 기술적 기반: 차세대 하드웨어와 플랫폼

물리적 AI라는 거대한 비전을 실현하기 위해서는 막대한 연산 능력을 제공하는 하드웨어 기반이 필수적이다. NVIDIA는 CES 2025에서 이러한 요구에 부응하는 다각적인 하드웨어 포트폴리오를 공개했다.

첫째, GeForce RTX 50 시리즈와 Blackwell 아키텍처가 그 중심에 있다. 최신 Blackwell 아키텍처를 기반으로 하는 GeForce RTX 5090 GPU는 물리적 AI 모델의 훈련과 추론을 가속화하기 위한 핵심 동력으로 소개되었다.5 이 GPU는 이전 세대에 비해 속도와 효율성에서 상당한 향상을 이루었으며, 특히 진보된 레이 트레이싱(ray tracing)과 AI 기반 렌더링 성능은 물리적으로 정확하고 사실적인 시뮬레이션 환경, 즉 디지털 트윈(digital twin)을 구축하는 데 결정적인 역할을 한다.1 물리적 AI는 시뮬레이션 환경에서의 대규모 학습을 전제로 하므로, 이러한 고품질 가상 환경을 실시간으로 생성하고 상호작용하는 능력은 필수 불가결하다.

둘째, GB10 AI 슈퍼칩 및 Project DIGITS는 거대 AI 모델에 대한 접근성을 높여 연구 및 개발 생태계를 확장하려는 전략을 보여준다. GB10 슈퍼칩은 강력한 Blackwell GPU와 고효율 Grace CPU를 하나의 컴팩트한 패키지에 통합한 제품으로, 특히 휴머노이드 로봇과 같은 AI 애플리케이션 구동에 최적화되어 있다.5 ’Project DIGITS’는 이 GB10의 강력한 성능을 개발자들의 개인 데스크톱 환경으로 가져오는 프로젝트이다.5 이는 과거 데이터센터급 인프라에서만 가능했던 수천억 개 매개변수 규모의 AI 모델 연구를 보다 폭넓은 개발자 커뮤니티가 수행할 수 있도록 하여, 물리적 AI 분야의 혁신을 가속화하려는 의도를 담고 있다.

셋째, **DRIVE Thor SoC(System-on-Chip)**는 물리적 AI의 적용 범위가 로봇뿐만 아니라 자동차 산업으로 확장되고 있음을 명확히 보여준다. 자율주행차 및 트럭을 위해 특별히 설계된 ‘Thor’ 칩은 생성 AI 모델을 효율적으로 처리하고, 카메라와 라이다(LiDAR) 센서로부터 입력되는 방대한 시각 정보를 실시간으로 분석하여 레벨 4 수준의 고도화된 자율주행 기능을 구현하는 데 초점을 맞춘다.9 이는 차량이 단순한 주행 보조를 넘어, 주변 환경을 깊이 이해하고 복잡한 주행 시나리오에서 스스로 판단하고 행동하는 물리적 AI 에이전트로 진화하고 있음을 시사한다.

2.3 핵심 기술: 월드 파운데이션 모델(WFM) ‘코스모스(Cosmos)’ 심층 분석

NVIDIA의 물리적 AI 비전의 핵심에는 ’코스모스(Cosmos)’라는 월드 파운데이션 모델(World Foundation Model, WFM) 개발 플랫폼이 자리하고 있다. 이는 로봇과 자율주행차와 같은 물리적 AI 시스템의 개발 방식을 근본적으로 혁신하려는 시도이다.5

2.3.1 개념 및 목표

코스모스의 핵심 목표는 현실 세계의 물리적 법칙과 상호작용을 가상 환경에서 정밀하게 시뮬레이션하여, AI 시스템이 실제 하드웨어에 배포되기 전에 안전하고 통제된 환경에서 수많은 시나리오를 테스트하고 개선할 수 있도록 하는 것이다.1 이는 “로봇공학을 위한 ChatGPT의 순간“이라고 묘사될 만큼 패러다임 전환적인 의미를 갖는다.9 전통적인 로봇 개발은 실제 로봇을 이용한 시행착오에 크게 의존하여 시간과 비용이 많이 들고 위험성이 높았다. 코스모스는 이러한 Sim-to-Real(시뮬레이션-현실 전환) 과정의 가장 큰 어려움 중 하나인 현실과 유사한 대규모 학습 데이터 부족 문제를 해결하고자 한다.10 AI가 생성한 합성 데이터를 통해 사실상 무한한 훈련 환경을 제공함으로써, 로봇이 현실 세계의 다양성과 예측 불가능성에 더 잘 대응할 수 있도록 만드는 것이 최종 목표이다.

2.3.2 아키텍처 분석

코스모스는 다양한 요구사항과 연산 환경에 대응하기 위해 두 가지 주요 생성 모델 아키텍처를 채택하고 있다. 이는 유연성과 성능 사이의 균형을 맞추려는 설계 철학을 반영한다.

  1. 자기회귀(Autoregressive) 모델: 이 모델은 Transformer의 디코더 아키텍처를 기반으로 한다. 주어진 텍스트 프롬프트와 이전 비디오 프레임들을 조건(condition)으로 하여, 다음 비디오 프레임에 해당하는 토큰을 순차적으로 예측하는 방식으로 작동한다.6 코스모스는 이 기본 구조에 몇 가지 핵심적인 개선을 적용했다. **3D RoPE(Rotary Position Embeddings)**를 도입하여 공간적(spatial) 차원과 시간적(temporal) 차원을 분리해 인코딩함으로써 비디오 시퀀스의 시공간적 관계를 더 정확하게 표현한다. 또한, **QK-정규화(QK-normalization)**를 통해 대규모 모델의 훈련 안정성을 향상시켰으며, 교차-어텐션(Cross-attention) 레이어를 통합하여 텍스트 입력을 통해 생성되는 세계를 보다 정교하게 제어할 수 있도록 했다.6 이 모델은 실시간성이 중요한 애플리케이션에 적합하다.
  2. 확산(Diffusion) 모델: 이 모델은 고품질의 사실적인 비디오 생성에 강점을 가진다. 훈련 과정은 원본 데이터에 점진적으로 가우시안 노이즈(Gaussian noise)를 추가하여 순수한 노이즈로 변환하는 ’순방향 과정(Forward process)’과, 노이즈가 낀 입력으로부터 단계적으로 노이즈를 제거하여 원본 데이터를 복원하는 방법을 학습하는 ’역방향 과정(Reverse process)’으로 구성된다.6 이 과정을 통해 모델은 데이터의 기저 분포(underlying distribution)를 학습하게 되며, 이를 통해 물리 법칙에 부합하고 시각적으로 매우 사실적인 비디오를 생성할 수 있다. 이는 특히 최종 훈련 데이터의 품질이 중요한 경우에 사용된다.

2.3.3 데이터 처리 및 토큰화

코스모스 플랫폼의 진정한 힘은 단순히 모델 아키텍처에만 있는 것이 아니라, 9,000조 개에 달하는 방대한 토큰으로 훈련된 데이터를 효율적으로 처리하는 엔드-투-엔드 파이프라인에 있다.6

  • 데이터 큐레이션 (NVIDIA NeMo Curator): 물리적 AI 모델을 훈련시키기 위해서는 방대한 양의 원시 비디오 데이터로부터 고품질의 유의미한 데이터를 선별하는 과정이 필수적이다. NeMo Curator는 이 과정을 자동화하고 가속화하는 도구이다. 100페타바이트(PB)가 넘는 대규모 데이터를 처리할 수 있으며, AI 기반의 고급 필터링, 자동 캡셔닝, 임베딩 기술을 통해 훈련에 적합한 데이터를 기존 방식보다 최대 89배 빠르게 선별할 수 있다.6
  • 비디오 토큰화 (Cosmos Tokenizer): 전통적인 비디오 처리 방식은 고차원의 픽셀 공간에서 직접 작동하여 연산 비용이 매우 높았다. 코스모스 토큰화기는 이 문제를 해결하기 위해 혁신적인 접근법을 채택했다. 픽셀 공간 대신 웨이블릿(wavelet) 공간에서 비디오를 처리함으로써, 시공간적 역학 관계와 같은 중요한 정보를 보존하면서도 데이터를 효율적으로 압축한다.13 이 토큰화기는 확산 모델에 적합한 연속적인 벡터 기반 토큰과 자기회귀 모델에 적합한 이산적인 정수 기반 토큰 표현을 모두 지원하는 통합 프레임워크를 제공하여 모델 아키텍처의 유연성을 극대화한다.13

2.3.4 평가 및 벤치마크

코스모스는 기존 비디오 생성 모델의 평가 기준을 넘어, 물리적 AI 시스템에 특화된 새로운 벤치마크를 도입했다. 일반적인 비디오 생성 모델이 생성된 영상의 시각적 충실도(fidelity)나 시간적 일관성(temporal consistency)에 초점을 맞추는 반면, 코스모스는 여기에 두 가지 핵심적인 차원을 추가했다.6

  1. 3D 일관성(3D Consistency): 생성된 2D 비디오가 기저의 3D 세계와 얼마나 일관성을 유지하는지를 평가한다. 이는 로봇이 2D 시각 정보로부터 3D 공간을 정확히 추론해야 하는 물리적 AI에 필수적인 요소이다.
  2. 물리적 정렬(Physics Alignment): 생성된 비디오가 실제 세계의 물리 법칙을 얼마나 잘 따르는지를 정량적으로 평가한다. 이를 위해 NVIDIA PhysX 및 Isaac Sim과 같은 물리 시뮬레이션 엔진을 활용하여, 가상 환경에서 중력, 충돌, 토크, 관성 등 8가지 통제된 시나리오를 설계하고, 생성된 비디오가 이러한 물리적 속성을 정확하게 시뮬레이션하는지 테스트한다.6 이는 생성된 데이터가 실제 로봇 훈련에 유용하게 사용될 수 있음을 보장하는 핵심적인 검증 과정이다.

2.4 산업 파트너십과 생태계 확장

NVIDIA는 코스모스 플랫폼을 특정 기업에 국한하지 않고, GitHub를 통해 오픈 라이선스로 공개함으로써 광범위한 개발자 생태계를 구축하려는 전략을 명확히 했다.1 이는 Llama 3와 같은 오픈 소스 언어 모델이 생성 AI 분야에 미친 영향력을 물리적 AI 분야에서도 재현하려는 의도로 해석된다.

이러한 개방형 전략은 이미 가시적인 성과를 내고 있다. Figure AI, 1X Technologies, Agility Robotics, XPENG 등 휴머노이드 로봇과 자율주행 분야를 선도하는 기업들이 코스모스 플랫폼의 초기 채택 파트너로 참여했다.1 이는 코스모스가 학술적 개념을 넘어 실제 산업 현장의 복잡하고 구체적인 문제를 해결하기 위한 실용적인 플랫폼임을 입증하는 중요한 사례이다. 특히, Figure AI는 자사의 휴머노이드 로봇 ’Figure 03’의 지능(Helix 플랫폼)을 훈련시키기 위한 GPU 기반 인프라 확충 및 대규모 데이터 확보를 위해 NVIDIA와 긴밀히 협력하고 있다.15 Agility Robotics 역시 자사의 이족보행 로봇 ’Digit’의 온보드 컴퓨팅 시스템으로 NVIDIA Jetson 플랫폼을 채택했으며, NVIDIA Isaac Sim을 활용한 시뮬레이션-현실 전환 워크플로우를 구축하여 개발 효율성을 높이고 있다.17

NVIDIA의 이러한 전략은 산업계의 자본 지출(Capital Expenditure, CapEx) 패러다임에 근본적인 변화를 예고한다. 과거에는 공장을 건설하거나 물류 시스템을 자동화할 때, 물리적인 설비를 먼저 구축한 후 운영을 최적화하는 방식이 일반적이었다. 이는 설계 단계의 오류가 막대한 비용 손실과 프로젝트 지연으로 이어지는 높은 리스크를 내포했다. 그러나 코스모스, Omniverse, 디지털 트윈 기술의 결합은 ‘시뮬레이션 우선(simulation-first)’ 접근을 가능하게 한다.4 예를 들어, Foxconn이 멕시코에 새로운 GPU 제조 공장을 건설할 때, 실제 장비를 단 하나도 설치하기 전에 NVIDIA Omniverse를 사용하여 공장 전체를 디지털 트윈으로 먼저 구축한 사례는 이러한 변화의 강력한 증거이다.4 이 가상 공장 안에서 다양한 생산 라인 레이아웃, 로봇 작업 흐름, 물류 동선을 수없이 테스트하고 최적화할 수 있다. 코스모스는 여기에 더해, 공급망 차질이나 다양한 제품 믹스와 같은 수많은 운영 시나리오를 합성 데이터로 생성하여 디지털 트윈 내에서 시스템의 회복탄력성(resilience)을 극한까지 테스트할 수 있게 해준다. 이는 물리적 투자에 따르는 리스크를 극적으로 감소시킨다. 기업들은 이제 수십억 달러 규모의 프로젝트에 착수하기 전에, 자신들의 공장 효율성과 자동화 투자 수익률(ROI)에 대해 높은 확신을 가질 수 있게 된다. 결과적으로, NVIDIA의 시뮬레이션 스택(하드웨어 + 소프트웨어)에 대한 투자는 더 이상 단순한 연구개발(R&D) 비용이 아니라, 거대 자본 프로젝트를 위한 일종의 ’보험’이자 ’최적화 도구’가 된다. 이는 산업 부문에 대한 NVIDIA의 가치 제안을 근본적으로 바꾸고, 새로운 거대 시장을 창출하는 동력이 될 것이다.

Table 1: NVIDIA Cosmos 플랫폼 구성 요소 및 기술 명세

구성 요소 (Component)주요 기능 및 기술 명세 (Key Function & Technical Specification)
Cosmos Curator대규모 시뮬레이션 및 실제 세계에서 수집된 방대한 다중 모드(multi-modal) 데이터를 선별, 관리 및 보강하여 AI 모델 학습을 위한 고품질 데이터셋을 생성한다.
Cosmos Tokenizer비디오, 라이다, 레이더 등 시공간적 센서 데이터를 파운데이션 모델이 이해할 수 있는 일관된 ‘토큰’ 형태로 변환하여 시뮬레이션 입력을 표준화한다.
Cosmos Predict토큰화된 데이터를 기반으로 월드 모델(world model)을 실행하여, 시뮬레이션 환경 내에서 발생할 수 있는 미래의 사건이나 시스템 상태를 정확하게 예측한다.
Cosmos Reason예측된 여러 미래 시나리오를 바탕으로 인과 관계를 추론하고, 특정 목표 달성(예: 생산성 극대화, 다운타임 최소화)을 위한 최적의 행동 계획 및 의사결정을 수행한다.
Cosmos Transfer시뮬레이션(Omniverse)에서 훈련되고 검증된 AI 모델과 정책을 실제 물리적 로봇이나 산업 시스템에 안전하고 효과적으로 배포 및 이전하는 ’심투리얼(sim-to-real)’을 담당한다.
Cosmos GuardrailsAI 에이전트의 행동에 대한 안전, 보안 및 윤리적 제약 조건을 설정하고 강제하여, 예측 불가능하거나 위험한 동작을 방지하는 핵심 안전장치 역할을 한다.

3. 주요 기업의 전략적 동향 및 연구 발표

3.1 Google DeepMind: AI, 과학의 프론티어를 열다

NVIDIA가 산업 생태계 구축에 집중하는 동안, Google DeepMind는 AI를 인류의 근본적인 과학 난제를 해결하는 도구로 활용하는 데 주력하는 모습을 보였다. Google DeepMind의 CEO 데미스 하사비스(Demis Hassabis)는 스위스 다보스에서 열린 세계경제포럼(WEF)에서, 자사의 스핀오프 기업인 Isomorphic Labs를 통해 AI로 설계된 신약이 2025년 말까지 임상 시험에 들어갈 계획이라고 발표했다.19 이는 단백질 구조 예측 문제에서 기념비적인 성과를 거둔 AlphaFold의 성공을 넘어, 신약 개발의 전 과정, 즉 타겟 식별부터 화합물 설계, 임상 시험에 이르기까지 AI를 깊숙이 통합하려는 야심 찬 계획을 보여준다.

하사비스는 생명 현상의 복잡성은 기존의 수학적 방정식만으로는 완벽히 설명하기 어렵기 때문에, AI와 같은 강력한 도구가 필수적이라고 강조했다.19 이러한 철학은 다른 과학 분야로도 확장되고 있다. Google DeepMind는 LIGO(레이저 간섭계 중력파 관측소)와의 협력을 통해, 중력파 관측소의 매우 민감한 제어 시스템에서 발생하는 노이즈를 획기적으로 줄이는 ’Deep Loop Shaping’이라는 새로운 AI 방법을 개발했다고 발표했다.20 이는 AI의 응용 범위를 생명 과학을 넘어 천문학 및 기초 물리 분야까지 확장한 사례로, AI가 인류의 지식 경계를 넓히는 데 핵심적인 역할을 할 수 있음을 보여준다.

이러한 동향은 Google의 이중 전략(two-track strategy)을 시사한다. 한편으로는 Gemini와 같은 파운데이션 모델을 자사의 검색, 클라우드, 하드웨어(Pixel) 등 핵심 제품 생태계에 깊숙이 통합하여 상업적 가치를 극대화하고 21, 다른 한편으로는 AI를 신약 개발, 기후 변화, 신소재 발견과 같은 인류의 거대 과학 난제(grand scientific challenges) 해결에 적용함으로써 기술적 리더십과 사회적 영향력을 동시에 확보하려는 것이다. 이는 산업 인프라와 개발자 생태계 구축에 집중하는 NVIDIA의 접근법과는 뚜렷한 차이를 보이는 전략적 포지셔닝이다.

3.2 Meta: 선택과 집중을 통한 AI 전략 재편

Meta는 2025년 1월, 자사의 AI 전략을 재편하는 중요한 결정을 발표했다. 회사는 2025년 1월 14일부로, 브랜드 및 외부 개발자 커뮤니티가 증강현실(AR) 효과를 제작하고 배포해 온 플랫폼인 ’메타 스파크(Meta Spark)’를 종료한다고 밝혔다.25 이는 지난 7년간 AR 콘텐츠 생태계 확장에 상당한 투자를 해왔던 Meta가 소비자용 AR 애플리케이션 레이어에서 한발 물러나, 보다 근본적인 AI 기술에 자원을 집중하려는 전략적 전환으로 해석된다.

이러한 선택과 집중의 결과는 Meta의 파운데이션 모델 발전에서 명확히 드러난다. 글로벌 컨설팅 기업 McKinsey가 발표한 보고서에 따르면, 2025년 1월을 기준으로 Meta의 최신 대규모 언어 모델인 Llama 3.3은 상당한 기술적 진보를 이루었다.26 이 모델은 텍스트뿐만 아니라 오디오, 이미지를 함께 이해하고 처리할 수 있는 멀티모달(multimodal) 기능을 갖추었으며, 복잡한 다단계 문제 해결이 가능한 고급 추론(advanced reasoning) 능력과 긴 대화에서도 맥락을 유지하는 향상된 이해 능력을 보여주었다. 이는 Meta의 전략적 우선순위가 AR 필터와 같은 상위 레벨 애플리케이션에서, 모든 AI 서비스의 기반이 되는 파운데이션 모델의 핵심 역량 강화로 이동했음을 명확히 보여준다. 즉, 플랫폼 생태계 경쟁에서 가장 중요한 기반 기술 경쟁에 집중하겠다는 의지를 표명한 것이다.

3.3 주요 AI 컨퍼런스 동향

2025년 1월은 CES를 제외하고는 대규모 AI 및 로봇공학 학술 대회가 직접적으로 개최되지는 않았다. 그러나 2월과 3월에 연이어 예정된 세계 최고 수준의 학회들을 위한 준비가 본격화되는 시기였다. 인공지능 분야의 최고 권위 학회 중 하나인 **AAAI-25(The 39th Annual AAAI Conference on Artificial Intelligence)**가 2월 25일부터 3월 4일까지 미국 필라델피아에서 개최될 예정이었으며 27, 컴퓨터 비전 응용 분야의 주요 학회인 WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision) 역시 2월 28일부터 3월 4일까지 애리조나 투손에서 열릴 예정이었다.30

이러한 주요 학회들의 논문 제출 마감은 이미 2024년 하반기에 이루어졌기 때문에, 1월의 기술적 담론을 주도하지는 못했다. 하지만 CES에서 발표된 NVIDIA의 물리적 AI 비전과 코스모스 플랫폼, 그리고 주요 기업들의 전략적 변화들이 곧이어 열릴 이들 학회에서 어떻게 학술적으로 논의되고 검증될지에 대한 기대감을 높이는 시기였다. 다수의 소규모 국제 컨퍼런스들이 1월을 포함하여 연중 예정되어 있었으나 33, 1월의 기술적 방향성을 제시하는 데에는 제한적인 영향을 미쳤다.

4. 2025년 1월 핵심 학술 연구 동향 분석

2025년 1월, 학계에서는 산업계의 ‘물리적 AI’ 비전을 뒷받침하고 구체화하는 핵심 기반 기술들에 대한 연구가 활발하게 발표되었다. 특히 사전 인쇄 논문 공개 사이트인 arXiv를 중심으로, 대규모 언어 모델(LLM)을 로봇의 고수준 계획(planning)에 통합하는 연구, 인간의 비디오 시연으로부터 로봇의 행동을 학습하는 연구, 그리고 시뮬레이션과 현실 간의 간극을 줄이는 Sim-to-Real 기술 연구가 두드러졌다.

4.1 대규모 언어 모델(LLM)을 활용한 로봇 계획(Planning) 기술

LLM이 가진 강력한 상식 추론 능력과 자연어 이해 능력을 로봇의 고수준 작업 계획 수립에 통합하려는 연구는 물리적 AI가 ‘무엇을(What)’ 해야 할지를 결정하는 핵심적인 분야이다. 이는 로봇에게 “테이블을 정리해 줘“와 같은 추상적인 명령을 내리면, 로봇이 스스로 ‘컵을 집는다’, ‘싱크대로 이동한다’, ’컵을 내려놓는다’와 같은 구체적인 행동 순서를 생성하게 하는 것을 목표로 한다.

1월에 발표된 주요 연구들은 다음과 같은 방향성을 보였다.

  • 시각 정보와 상징 계획의 연결: arXiv:2501.17665에서 제안된 ‘Image2PDDL’ 프레임워크는 로봇이 관찰한 시각적 입력(이미지)과 PDDL(Planning Domain Definition Language)이라는 정형화된 계획 도메인 설명을 LLM에 함께 제공하여, 복잡한 실제 작업에 대한 구조화된 문제 인스턴스를 자동으로 생성하는 방법을 제시했다.36 이는 로봇의 인식(perception)과 상징적 계획(symbolic planning) 사이의 간극을 메우고, 계획 수립에 필요한 인간의 전문 지식 장벽을 낮추는 중요한 시도이다.
  • 이기종 로봇 팀 협업 계획: arXiv:2501.16539는 단일 로봇을 넘어, 능력과 제약 조건이 각기 다른 여러 로봇으로 구성된 이기종(heterogeneous) 로봇 팀을 위한 미션 계획 프레임워크를 제안했다.37 이 연구에서는 LLM을 사용하여 복잡한 상위 임무를 계층적인 트리(hierarchical tree) 구조로 분해하고, 각 로봇의 특성을 고려하여 하위 작업을 효율적으로 할당하는 방식을 선보였다. 이는 미래의 자동화된 공장이나 물류창고에서 다양한 로봇들이 협업하는 시나리오에 필수적인 기술이다.
  • 계층적 계획(Hierarchical Planning)과의 통합 로드맵: arXiv:2501.08068는 LLM을 계층적 계획 분야에 통합하기 위한 체계적인 로드맵을 제시했다.38 이 연구는 LLM이 문제 정의, 계획 수립, 그리고 계획 결과의 후처리(예: 로봇 실행 코드로 변환) 등 계획의 전체 생명주기에서 어떤 역할을 수행할 수 있는지를 분류하는 택소노미(taxonomy)를 제안함으로써, 향후 연구 방향을 제시했다.
  • 동적 경로 계획: arXiv:2501.15901는 이동 로봇의 경로 계획 문제에 LLM을 적용했다.39 이 프레임워크는 사용자의 자연어 명령을 일련의 동적인 웨이포인트(waypoint)로 변환하고, 주행 중 예상치 못한 장애물을 만났을 때 실시간으로 경로를 조정하는 능력을 보여주었다.

이러한 학술적 노력들은 NVIDIA가 발표한 ‘Cosmos Reason’ 12과 같은 비전-언어-행동(Vision-Language-Action) 모델의 이론적 기반을 형성한다. 산업계가 물리적 세계와 상호작용하는 ‘행동(how)’ 자체에 초점을 맞추고 있다면, 학계는 그 행동의 논리적 순서와 목표를 정의하는 ‘계획(what)’ 단계에서 LLM의 가능성을 깊이 탐구하고 있다. 이는 물리적 AI가 ’어떻게 움직일 것인가’와 ’무엇을 해야 할 것인가’라는 두 가지 핵심 문제를 동시에 해결하려는 거시적인 연구 흐름의 일환으로 볼 수 있다.

4.2 비디오 기반 로봇 학습(Robot Learning from Video)

인간의 행동을 담은 비디오 시연으로부터 로봇이 직접 행동 정책을 학습하는 모방 학습(Imitation Learning)은 로봇에게 새로운 기술을 가르치는 데 필요한 데이터 수집 비용과 노력을 획기적으로 줄일 수 있는 잠재력 때문에 지속적으로 주목받는 연구 분야이다.

1월에는 특히 소수의 시연만으로 복잡한 작업을 학습하는 원샷/퓨샷 학습(One-shot/Few-shot Learning)에 대한 연구가 두드러졌다.

  • arXiv:2501.14208에서 제안된 ‘YOTO(You Only Teach Once)’ 프레임워크는 단 한 번의 양안(binocular) 비디오 시연만으로 두 팔을 사용하는 복잡한 조작(bimanual manipulation) 작업을 로봇이 학습할 수 있음을 보였다.40 이 연구의 핵심은 시연 비디오에서 핵심적인 동작이 나타나는 키프레임(keyframe) 기반의 궤적을 추출하고, 이를 바탕으로 조작 대상 객체의 종류나 위치를 다양하게 변화시킨 새로운 훈련 데이터를 효율적으로 자동 생성하는 데 있다. 이를 통해 데이터 증강 문제를 해결하고, 단일 시연만으로도 다양한 상황에 일반화될 수 있는 정책을 학습할 수 있었다.
  • arXiv:2505.12705에서 발표된 **‘DreamGen’**은 한 걸음 더 나아가, 실제 비디오가 아닌 비디오 월드 모델(video world model)을 사용하여 합성된 로봇 데이터, 즉 ’신경 궤적(neural trajectories)’을 생성하고, 이를 통해 로봇 정책을 훈련하는 4단계 파이프라인을 제시했다.41 이 접근법은 단 하나의 ‘물건 집어 옮기기’ 작업에 대한 실제 원격 조작 데이터만으로, 휴머노이드 로봇이 한 번도 본 적 없는 22가지의 새로운 행동을 학습하고 다양한 환경에서 수행할 수 있게 했다. 이는 실제 데이터 수집의 한계를 극복하고 로봇 학습을 확장할 수 있는 새로운 가능성을 열었다.

이러한 연구들은 NVIDIA의 코스모스와 같은 월드 파운데이션 모델의 필요성을 학술적 관점에서 역으로 증명한다. 학계의 연구들이 주로 ’실제 비디오’로부터 유용한 정보를 추출하고 학습하는 데 초점을 맞추고 있는 반면, 코스모스와 같은 WFM은 ’합성 비디오’를 사실상 무한정 생성함으로써 데이터의 양과 다양성 문제를 근본적으로 해결하려 한다. 두 접근 방식은 서로 경쟁적이기보다는 상호 보완적이다. 향후에는 실제 비디오 데이터를 사용하여 WFM을 특정 작업에 맞게 미세 조정(fine-tuning)하거나, WFM으로 대량 생성한 합성 데이터로 모방 학습 정책을 사전 훈련(pre-training)한 후 소량의 실제 데이터로 미세 조정하는 하이브리드 방식이 로봇 학습의 주류가 될 가능성이 높다.

4.3 시뮬레이션-현실 전환(Sim-to-Real) 기술의 진보

시뮬레이션 환경에서 성공적으로 훈련된 AI 정책을 물리적 로봇에 이전했을 때에도 동일한 성능을 발휘하도록 하는 것은 로봇 학습 분야의 오랜 난제이다. ’현실 격차(reality gap)’로 알려진 이 문제를 해결하기 위한 연구들이 1월에도 활발히 이루어졌다.

  • arXiv:2502.20396는 구체적인 **‘Sim-to-Real 강화학습(RL) 레시피’**를 통해, 다중 손가락을 가진 휴머노이드 로봇이 비전 센서만을 사용하여 정교한 양팔 조작 작업을 성공적으로 수행할 수 있음을 입증했다.42 이 연구는 실제 로봇과 시뮬레이션 환경 간의 물리적 파라미터 차이를 자동으로 튜닝하는 모듈, 접촉 및 객체 목표에 기반한 일반화된 보상 함수 설계, 그리고 복잡한 정책을 나누어 학습시킨 후 통합하는 정책 증류(policy distillation) 프레임워크 등 현실 격차를 줄이기 위한 다각적인 기법들을 통합적으로 제시했다.
  • arXiv:2501.18016는 디지털 트윈 동기화(Digital Twin Synchronization) 기술을 제안했다.43 이 연구는 게임 엔진인 Unity의 사실적인 시뮬레이션 환경과 로봇 운영체제인 ROS2(Robot Operating System 2)를 결합하여, 시뮬레이션에서 훈련된 강화학습 에이전트의 결정이 물리적 로봇의 실시간 제어에 원활하게 연결되는 프레임워크를 구축했다. 이는 특히 로봇을 이용한 적층 제조(additive manufacturing) 공정 제어에 적용되었다.
  • arXiv:2502.01536v3에서 제안된 ‘VR-Robo’ 프레임워크는 현실 공간을 시뮬레이션으로 옮기는 ‘Real-to-Sim’ 단계를 혁신했다.44 이 연구는 여러 각도에서 촬영한 이미지들을 바탕으로 3차원 장면을 사실적으로 재구성하는 3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS) 기술을 활용하여, 사진처럼 사실적이면서도 로봇이 물리적으로 상호작용할 수 있는 ‘디지털 트윈’ 시뮬레이션 환경을 자동으로 생성했다. 이를 통해 실제 환경과 매우 유사한 가상 공간에서 다리형 로봇의 주행 정책을 훈련하고, 성공적으로 현실에 이전할 수 있음을 보였다.

이러한 Sim-to-Real 연구들의 구체적이고 세분화된 접근 방식은 역설적으로 NVIDIA가 제공하는 통합 플랫폼의 가치를 부각시킨다. 학계의 연구자들이 개별적으로 해결하고자 하는 문제들, 예를 들어 현실 데이터를 기반으로 한 시뮬레이션 환경 구축(VR-Robo), 물리 파라미터 튜닝(arXiv:2502.20396), 시뮬레이션과 실제 로봇 간의 통신(디지털 트윈 동기화) 등을 NVIDIA는 Isaac Sim, Omniverse, Cosmos라는 통합된 플랫폼을 통해 ‘서비스’ 형태로 제공하려 한다. 이는 연구 개발의 속도를 크게 가속화할 수 있는 잠재력을 가지지만, 동시에 특정 기술 스택에 대한 개발자 및 연구자 커뮤니티의 의존성을 심화시킬 수 있는 양면성을 지닌다.

4.4 주요 저널 발표 논문 심층 분석: IEEE RA-L

1월의 주요 학술 저널 발표 중, IEEE Robotics and Automation Letters(RA-L)에 게재된 ‘Fault Handling in Robotic Manipulation Tasks for Model Predictive Interaction Control’ 연구는 물리적 AI의 실용화를 위해 반드시 해결해야 할 신뢰성 문제를 다루었다는 점에서 주목할 만하다.45

이 논문의 핵심 기여는 로봇이 정교한 조립이나 접촉이 포함된 조작 작업을 수행하는 도중에 발생할 수 있는 예측 불가능한 오류를 체계적으로 감지(detection), 진단(diagnosis), 그리고 복구(recovery)하는 포괄적인 프레임워크를 제시한 데 있다. 이를 위해 두 가지 핵심 기술을 통합했다. 첫째는 **모델 예측 상호작용 제어(Model Predictive Interaction Control, MPIC)**이다. MPIC는 로봇의 움직임을 예측하는 동역학 모델과 환경과의 접촉 힘을 예측하는 상호작용 모델을 모두 포함하는 최적 제어 문제를 매 제어 주기마다 반복적으로 해결하는 고급 제어 기법이다.47 이를 통해 로봇은 미래의 상태를 예측하며 최적의 행동을 계획할 수 있고, 예상치 못한 상황이 발생했을 때 동적으로 경로를 재계획할 수 있다.

둘째는 **‘결함 이벤트 파이프라인(Fault Event Pipeline, FEP)’**의 도입이다. FEP는 로봇의 자세나 접촉 힘에서 오류가 감지되었을 때, 이를 진단하고 사전에 정의된 복구 전략(예: 이전 단계로 돌아가기, 다른 각도에서 재시도하기 등)을 체계적으로 수행하는 구조화된 접근법을 제공한다.46 이 연구는 이상적인 환경을 가정하는 대부분의 로봇 학습 연구와 달리, 실제 산업 현장에서 필연적으로 발생하는 불확실성과 오류 상황에서의 **강인성(robustness)**과

신뢰성(reliability) 문제를 정면으로 다루었다는 점에서 중요한 기술적 의의를 가진다.

물리적 AI가 연구실을 벗어나 실제 세계에서 유용하게 사용되기 위해서는, 단순히 주어진 작업을 성공적으로 ’수행’하는 능력을 넘어, 예상치 못한 상황에 직면했을 때 안전하게 ’회복’할 수 있는 능력이 필수적이다. 이 연구는 물리적 AI 시스템의 안전성(safety)과 강인성을 확보하기 위해 필요한 저수준 제어(low-level control) 및 예외 처리(exception handling) 기술의 중요성을 명확하게 보여주는 사례이다.

Table 2: 2025년 1월 주요 arXiv 연구 논문 요약

분야 (Category)논문 (Paper/Framework)arXiv ID핵심 내용 (Key Contribution)
LLM 활용 로봇 계획‘Image2PDDL’arXiv:2501.17665LLM을 이용해 로봇의 시각 정보(이미지)를 정형화된 계획 언어(PDDL)로 자동 변환하여, 인식과 상징 계획 간의 간극을 해소
LLM 활용 로봇 계획이기종 로봇 팀 미션 계획 프레임워크arXiv:2501.16539LLM으로 복잡한 임무를 계층적으로 분해하고, 능력치가 다른 여러 로봇에게 최적의 하위 작업을 할당하는 협업 계획 기술 제시
LLM 활용 로봇 계획LLM-계층적 계획 통합 로드맵arXiv:2501.08068LLM을 로봇의 계층적 계획 수립 전 과정(문제 정의, 계획, 후처리)에 통합하기 위한 체계적인 분류법(taxonomy)과 로드맵 제시
LLM 활용 로봇 계획동적 경로 계획 프레임워크arXiv:2501.15901자연어 명령을 동적인 로봇 경로(웨이포인트)로 변환하고, 주행 중 예상치 못한 장애물 발생 시 실시간으로 경로를 수정
비디오 기반 로봇 학습‘YOTO (You Only Teach Once)’arXiv:2501.14208단 한 번의 양팔 비디오 시연만으로 복잡한 조작 작업을 학습. 키프레임 기반 궤적 추출과 데이터 자동 증강 기술이 핵심
비디오 기반 로봇 학습‘DreamGen’arXiv:2505.12705실제 비디오 대신 ’비디오 월드 모델’을 사용해 합성 데이터(신경 궤적)를 생성하여, 소량의 실제 데이터로 다양한 로봇 행동을 학습
Sim-to-RealSim-to-Real RL 레시피arXiv:2502.20396휴머노이드 로봇의 정교한 양팔 조작을 위해 물리 파라미터 자동 튜닝, 일반화된 보상 함수 등 현실 격차를 줄이는 기법들을 통합
Sim-to-Real디지털 트윈 동기화arXiv:2501.18016Unity 엔진과 ROS2를 결합하여 시뮬레이션(디지털 트윈)에서의 강화학습 정책이 실제 로봇 제어에 원활하게 동기화되는 프레임워크 구축
Sim-to-Real‘VR-Robo’arXiv:2502.01536v33D 가우시안 스플래팅(3DGS) 기술로 실제 공간을 사진처럼 사실적인 시뮬레이션 환경으로 자동 생성하여 Sim-to-Real 성공률을 높임

5. 종합 분석 및 2025년 전망

2025년 1월은 인공지능 및 로봇 공학 분야에서 중요한 변곡점으로, 산업계의 ‘하향식(Top-down)’ 비전 제시와 학계의 ‘상향식(Bottom-up)’ 기반 기술 연구가 명확한 시너지를 형성한 시점이었다. NVIDIA가 CES에서 선포한 ‘물리적 AI’ 생태계 비전은 산업계의 방향성을 제시하는 거시적 선언이었다. 동시에 학계에서는 LLM 기반 계획, 비디오 기반 학습, Sim-to-Real 기술 등 이 비전을 실현하기 위한 구체적이고 핵심적인 기술 요소들이 활발히 연구되었다. NVIDIA의 코스모스 플랫폼은 학계가 오랫동안 고심해 온 데이터 부족과 Sim-to-Real 간극 문제에 대한 거대 기술 기업의 포괄적인 해답으로 제시되었으며, 학계의 LLM 계획 연구는 코스모스 Reason과 같은 상위 레벨 추론 모델의 이론적 토대를 제공하며 상호 보완적인 관계를 형성했다.

이러한 동향을 바탕으로 2025년 이후의 전망을 다음과 같이 예측할 수 있다.

  • 가속화되는 개발 주기: 코스모스와 같은 월드 파운데이션 모델(WFM) 플랫폼의 보급은 로봇 AI 모델의 개발 주기를 획기적으로 단축시킬 것이다. 과거에는 데이터 수집과 시뮬레이션 환경 구축에 막대한 시간과 자원이 소요되었지만, 이제 고품질의 합성 데이터를 대량으로 생성하고 사실적인 시뮬레이션 환경을 쉽게 구축할 수 있게 되면서 연구자들과 개발자들은 더 복잡한 행동 정책과 고차원적인 추론 알고리즘 자체의 개발에 더 집중할 수 있게 될 것이다.
  • 하드웨어-소프트웨어 공동 최적화 심화: 물리적 AI 모델의 복잡성이 기하급수적으로 증가함에 따라, NVIDIA의 Blackwell 아키텍처 기반 GPU나 Jetson Thor와 같은 전용 하드웨어의 중요성은 더욱 커질 것이다. 미래에는 AI 모델의 알고리즘과 하드웨어 아키텍처가 개발 초기 설계 단계부터 함께 고려되고 공동으로 최적화(co-design)되는 경향이 심화될 것이다. 이는 특정 AI 워크로드에 대해 최고의 성능과 효율을 달성하기 위한 필연적인 과정이다.
  • 개방형 생태계 vs. 수직적 통합: Google이 Gemma와 같은 강력한 모델을 오픈 소스로 공개하며 개방형 생태계를 주도하려는 움직임 48과, NVIDIA가 하드웨어부터 소프트웨어, AI 모델까지 수직적으로 통합된 플랫폼을 제공하려는 전략 사이의 경쟁 및 협력 구도는 향후 물리적 AI 시장의 지형을 결정할 주요 변수가 될 것이다. 개발자들은 두 생태계의 장단점을 고려하여 자신의 필요에 맞는 기술 스택을 선택하게 될 것이며, 이 과정에서 새로운 표준이 형성될 수 있다.

그러나 이러한 밝은 전망에도 불구하고, 진정한 물리적 AI 시대를 열기 위해서는 여전히 해결해야 할 중요한 과제들이 남아있다.

  • 안전성 및 신뢰성: 물리적 AI가 공장, 병원, 가정 등 인간의 생활 공간에 대규모로 배포되기 위해서는 예측 불가능한 상황에 대한 절대적인 안전성과 강인성을 보장하는 것이 무엇보다 중요하다. ‘Fault Handling’ 46과 같은 연구는 이 방향으로의 중요한 첫걸음이지만, 아직은 연구 초기 단계에 머물러 있다.
  • 인과관계 추론: 현재의 생성 모델들은 데이터에 내재된 ’상관관계(correlation)’를 학습하는 데에는 매우 뛰어나지만, 물리 세계를 지배하는 근본적인 ’인과관계(causality)’를 깊이 이해하는 데에는 여전히 한계가 있다. 로봇이 단순히 관찰된 패턴을 모방하는 것을 넘어, 자신의 행동이 어떤 결과를 초래할지 예측하고 진정으로 지능적인 결정을 내리기 위해서는 더 높은 수준의 인과 추론 능력이 요구된다.
  • 사회적, 윤리적 합의: 인간과 물리적 공간을 공유하며 상호작용하는 휴머노이드 로봇의 등장은 순수한 기술적 문제를 넘어, 고용, 안전, 프라이버시, 책임 소재 등 복잡한 사회적, 윤리적 논의를 필연적으로 수반한다. 기술 개발과 병행하여 이러한 문제들에 대한 기술적, 정책적 가드레일을 구축하고 사회적 합의를 형성하는 과정이 중요한 과제로 부상할 것이다.

6. 참고 자료

  1. CES 2025: AI Advancing at ‘Incredible Pace,’ NVIDIA CEO Says …, https://blogs.nvidia.com/blog/ces-2025-jensen-huang/
  2. How NVIDIA Is Making It Easier to Bring Robots to Campus | EdTech Magazine, https://edtechmagazine.com/higher/article/2025/09/how-nvidia-making-it-easier-bring-robots-campus
  3. Nvidia, Disney and DeepMind line up behind trillion-dollar “physical AI” push, https://techinformed.com/nvidia-lines-up-trillion-dollar-physical-ai/
  4. NVIDIA on What Physical AI Means for Robotics - 2025 Keynote - Automate Show, https://www.automateshow.com/blog/nvidia-on-what-physical-ai-means-for-robotics
  5. CES 2025: Jensen Huang Presents NVIDIA’s Latest Innovations, https://www.ces.tech/articles/ces-2025-jensen-huang-presents-nvidias-latest-innovations/
  6. Advancing Physical AI with NVIDIA Cosmos World Foundation Model Platform, https://developer.nvidia.com/blog/advancing-physical-ai-with-nvidia-cosmos-world-foundation-model-platform/
  7. CES 2025 live updates: Here’s what we know, from Nvidia to a ‘flying car’ - Mashable, https://mashable.com/article/ces-2025-live-updates
  8. Nvidia pushes “Physical AI” with new Blackwell hardware and AI models - The Decoder, https://the-decoder.com/nvidia-pushes-physical-ai-with-new-blackwell-hardware-and-ai-models/
  9. Nvidia Hands-Down Won AI at CES 2025, And Also the Show Itself …, https://www.cnet.com/tech/services-and-software/nvidia-hands-down-won-ai-at-ces-2025-and-also-the-show-itself-heres-why-that-matters/
  10. [Insight] CES 2025 Spotlight: From NVIDIA Cosmos to Next-Gen …, https://www.trendforce.com/news/2025/01/09/insight-ces-2025-spotlight-from-nvidia-cosmos-to-next-gen-robotics-ai-innovations-showcase/
  11. Key Features of the NVIDIA Cosmos World Base Model Platform - EEWorld, https://en.eeworld.com.cn/news/robot/eic689034.html
  12. NVIDIA Cosmos for Developers, https://developer.nvidia.com/cosmos
  13. NVIDIA Cosmos: The Makings of a World Foundation Model - Mixpeek, https://mixpeek.com/blog/world-foundation-model
  14. NVIDIA Accelerates Robotics Research and Development With New Open Models and Simulation Libraries, https://nvidianews.nvidia.com/news/nvidia-accelerates-robotics-research-and-development-with-new-open-models-and-simulation-libraries
  15. NVIDIA Accelerates Robotics Research and Development With New Open Models and Simulation Libraries - Stock Titan, https://www.stocktitan.net/news/NVDA/nvidia-accelerates-robotics-research-and-development-with-new-open-mg5u3orx4xci.html
  16. Figure Partners with Nvidia to Accelerate Robot Deployment | Technology Magazine, https://technologymagazine.com/news/figure-series-c-funding
  17. Agility Robotics Powers the Future of Robotics with NVIDIA, https://www.agilityrobotics.com/content/agility-robotics-powers-the-future-of-robotics-with-nvidia
  18. Agility Robotics Powering the Future of Robotics with NVIDIA Jetson Thor, https://www.agilityrobotics.com/content/agility-robotics-powering-the-future-of-robotics-with-nvidia-jetson-thor
  19. AI designed drugs in trials this year, says Google DeepMind chief - SCI, https://www.soci.org/news/2025/1/ai-designed-drugs-in-trials-this-year-says-google-deepmind-chief
  20. Using AI to perceive the universe in greater depth - Google DeepMind, https://deepmind.google/discover/blog/using-ai-to-perceive-the-universe-in-greater-depth/
  21. Google AI announcements from August - Google Blog, https://blog.google/technology/ai/google-ai-updates-august-2025/
  22. January 2025 | Google Developers Newsletter, https://developers.google.com/newsletter/2025/01
  23. 2025 and the Next Chapter(s) of AI | Google Cloud Blog, https://cloud.google.com/transform/2025-and-the-next-chapters-of-ai/
  24. January 25 Google Search News: AI, core update and SEO - SEOZoom, https://www.seozoom.com/january-25-google-search-news/
  25. A Meta Spark Update | Meta Spark, https://spark.meta.com/blog/meta-spark-announcement/
  26. AI in the workplace: A report for 2025 | McKinsey, https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/superagency-in-the-workplace-empowering-people-to-unlock-ais-full-potential-at-work
  27. Association for the Advancement of Artificial Intelligence AAAI Annual Conference | Pennsylvania Convention Center, https://www.paconvention.com/events/detail/association-for-the-advancement-of-artificial-intelligence-aaai-annual-conference-25016
  28. The 39th Annual AAAI Conference on Artificial Intelligence Philadelphia 2025 - VKTR.com, https://www.vktr.com/events/conference/the-39th-annual-aaai-conference-on-artificial-intelligence-philadelphia-2025/
  29. aaai.org, https://aaai.org/conference/aaai/aaai-25/#:~:text=We%20are%20pleased%20to%20announce,25%20to%20March%204%2C%202025.
  30. IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) Alerts Sign Up, https://www.computer.org/resources/newsletters/wacv/
  31. WACV 2025 - Amazon Science, https://www.amazon.science/conferences-and-events/wacv-2025
  32. Winter Conference on Applications of Computer Vision (WACV), 2025 - ServiceNow, https://www.servicenow.com/research/event/2025-wacv.html
  33. Upcoming Robotics conferences 2025-2026, https://internationalconferencealerts.com/conference/robotics
  34. Upcoming Robotics Conferences in USA 2025, https://www.allconferencealert.com/usa/robotics-conference.html
  35. Robotics Conferences in USA 2025, https://allconferencealert.net/usa/robotics.php
  36. Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching - arXiv, https://arxiv.org/abs/2501.17665
  37. [2501.16539] Generalized Mission Planning for Heterogeneous Multi-Robot Teams via LLM-constructed Hierarchical Trees - arXiv, https://arxiv.org/abs/2501.16539
  38. arXiv:2501.08068v1 [cs.AI] 14 Jan 2025, https://arxiv.org/pdf/2501.08068?
  39. Robust Mobile Robot Path Planning via LLM-Based Dynamic Waypoint Generation - arXiv, https://arxiv.org/abs/2501.15901
  40. [2501.14208] You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations - arXiv, https://arxiv.org/abs/2501.14208
  41. [2505.12705] DreamGen: Unlocking Generalization in Robot Learning through Video World Models - arXiv, https://arxiv.org/abs/2505.12705
  42. [2502.20396] Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids - arXiv, https://arxiv.org/abs/2502.20396
  43. [2501.18016] Digital Twin Synchronization: Bridging the Sim-RL Agent to a Real-Time Robotic Additive Manufacturing Control - arXiv, https://arxiv.org/abs/2501.18016
  44. VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion, https://arxiv.org/html/2502.01536v3
  45. IEEE Robotics and Automation Letters - Erlangen - CRIS - FAU, https://cris.fau.de/journals/221442141/
  46. Fault Handling in Robotic Manipulation Tasks for Model Predictive Interaction Control, https://www.researchgate.net/publication/393971818_Fault_Handling_in_Robotic_Manipulation_Tasks_for_Model_Predictive_Interaction_Control
  47. Model Predictive Interaction Control for Robotic Manipulation Tasks - ResearchGate, https://www.researchgate.net/publication/362865311_Model_Predictive_Interaction_Control_for_Robotic_Manipulation_Tasks
  48. NVIDIA, Alphabet and Google Collaborate on the Future of Agentic and Physical AI, https://investor.nvidia.com/news/press-release-details/2025/NVIDIA-Alphabet-and-Google-Collaborate-on-the-Future-of-Agentic-and-Physical-AI/default.aspx
  49. NVIDIA, Alphabet and Google Collaborate to Drive Future of Agentic and Physical AI, https://www.googlecloudpresscorner.com/2025-03-18-NVIDIA,-Alphabet-and-Google-Collaborate-to-Drive-Future-of-Agentic-and-Physical-AI